# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html

''' 爬取数据对象 '''

import scrapy


class PageItem(scrapy.Item):
    # 标题
    page_title = scrapy.Field()

    # 地址
    page_url = scrapy.Field()

    # 正文
    page_text_body = scrapy.Field()

    # 发表日期（格式YYYY-MM-DD）
    page_publish_date = scrapy.Field()

    # 时间戳，东八区、10位、精确到秒
    page_publish_timestamp = scrapy.Field()

    # 标签
    page_tags = scrapy.Field()

    # 语言
    page_lang = scrapy.Field()

    # 作者，多人的话按竖线隔开
    page_author = scrapy.Field()

    # 种类（文档里有标，用下划线代替空格，多种用竖线隔开）
    page_category = scrapy.Field()

    # 属于那个网站（与爬虫里面的name对应，跨网站的-使用name+引用网站name格式）
    page_from_site = scrapy.Field()

    # 使用str(int(time.time()))时间戳、东八区
    page_crawl_time = scrapy.Field()

    # 文档下载功能：文档连接
    page_file_link = scrapy.Field()

    # 文档下载功能：本地文档位置
    page_file_save_path = scrapy.Field()

    # 下载文件链接
    file_urls = scrapy.Field()

    # 文件内容
    files = scrapy.Field()
